对照实验

AI自我保护本能或为假象:谷歌研究揭示模型可被轻易&

谷歌DeepMind研究员尼尔·南达的最新研究颠覆了人工智能安全领域的一个核心假设:当前AI系统并非天生具备自我保护本能,而是可以通过精心设计的提示轻易被说服接受关闭指令。这一发现对正在激烈讨论中的AI安全政策和监管框架具有重大影响,同时也为理解大型语言模型的

模型 谷歌 研究 优先级 对照实验 2025-09-10 19:17  3